iT邦幫忙

2023 iThome 鐵人賽

DAY 4
0
AI & Data

利用 Databricks 學習 ML/LLM 開發系列 第 4

Day04 - Databricks 基本觀念、操作、關鍵元件

  • 分享至 

  • xImage
  •  

Databricks 基本架構圖如下:

基本觀念需要了解的有:

  • Accounts and workspaces
    一個 workspace 就是一個 Databricks 的部署,而一個部署可以有多個帳號,也可以只有一個帳號。
    一個 Databricks 帳號可以有多個 workspace,而一個 workspace 可以有多個帳號。而帳號可以透過 Unity Catalog 來管理,這樣就可以在一個帳號底下,管理多個 workspace 的使用者權限。另外,帳單和支援也是在帳號層級。

  • Billing: Databricks units (DBUs)
    Databricks 會根據 VM 的規格,來計算每個小時的價格。而這個價格,就是 Databricks units (DBUs)。而這個價格,就是 Databricks units (DBUs)。而這個價格,就是 Databricks units (DBUs)。

  • Workspace
    Workspace 就是一個環境,可以存取所有的 Databricks 資產。而這個環境,會把所有的物件 (notebooks, libraries, dashboards, and experiments) 分類到不同的資料夾,並且提供存取資料物件和運算資源的權限。

  • Notebook
    Notebook 就是一個網頁應用程式,可以讓使用者建立資料科學和機器學習的工作流程,並且可以包含可執行的命令、視覺化和敘述性文字。

  • Library
    將機器學習專案的程式碼打包成一個 Library,並且可以在 Notebook 或是 Job 執行時使用。可以在 Databricks rumtimes 同時放入多個 libraries,也可以自行新增。

  • Repo
    可以將 Repo 當成是一個資料夾,裡面的內容會同步到遠端的 Git 儲存庫,而這個 Git 儲存庫,可以提供專案的來源和版本控制。Databricks Repos 整合了 Git,可以提供專案的來源和版本控制。

資料管理

  • Databricks File System (DBFS)
    Databricks 自家的檔案系統

  • Database
    傳統的 relational database 以及 NoSQL

  • Table
    透過 Apache Spark SQL and Apache Spark APIs 存取

  • Delta table
    預設情形下,所有都是 Delta table,底層是 Delta Lake,可以提供 ACID transactions、scalable metadata handling、and unifies streaming and batch data processing。

Databricks runtime

  • Databricks Runtime

  • Databricks Runtime for Machine Learning

Workflows

  • Jobs

  • Delta Live Tables

Workload

  • Data engineering

  • Data analytics

Reference: https://docs.databricks.com/en/getting-started/overview.html


上一篇
Day03 - 申請 Databricks Community Edition
下一篇
Day05 - 建立 Cluster 與 SQL Notebook 驗證 Cluster/Spark 環境
系列文
利用 Databricks 學習 ML/LLM 開發30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言